#bandidos contextuales

CAAL: Bandidos contextuales para selección de estrategias activas artesanales

CAAL usa bandidos contextuales para seleccionar dinámicamente estrategias de aprendizaje activo basadas en contexto externo.

2026-06-09 · 3 min

Aprendizaje por refuerzo con regularización KL y mala especificación

Descubre cómo la regularización KL mejora el aprendizaje por refuerzo ante modelos incorrectos. Nuevas garantías teóricas para algoritmos robustos. ¡Lee más!

2026-06-05 · 2 min

Bandidos contextuales con supervisión humana para precios de alquiler temporal

Bandidos contextuales con aprobación humana reducen el cold-start de 150 a 30 episodios. Aprende la estrategia warm-up histórico.

2026-06-03 · 3 min

Aprendizaje off-policy: optimización > estimación en grandes acciones

Descubre por qué la optimización es clave en el aprendizaje off-policy con grandes espacios de acción, y cómo los pesos de verosimilitud simplifican el proceso.

2026-06-02 · 3 min

Algoritmo mejorado para bandidos contextuales lineales adversariales

Descubre un nuevo algoritmo que logra regret casi óptimo en tiempo polinomial para bandidos contextuales lineales con pérdidas adversariales, sin necesidad de simulador.

2026-06-02 · 1 min

Cómo manejar bandidos contextuales con dinámica de estados latentes

Descubre un enfoque directo para manejar bandidos contextuales con estados latentes. Aprende cómo reducir el problema a bandidos lineales y mejorar las decisiones en entornos inciertos.

2026-06-02 · 2 min

GNEP sin intercambio de multiplicadores: robótica y aprendizaje activo

Algoritmos GNEP sin compartir multiplicadores para robótica y aprendizaje activo con bandidos contextuales. Mejora eficiencia y privacidad.

2026-06-02 · 2 min